查看原文
其他

独家课程丨历史GIS(一)

王涛 零壹Lab 2022-10-08

弗里德里希一世加冕 (from WELT)


历史研究往往关注事件的发生、发展。但任何历史事件都是在空间中铺陈开来的。比如,1701年,弗里德里希一世加冕为"在普鲁士的国王"。这是一段历史叙述,有人物、时间;如果我们继续追问,加冕典礼在哪里发生,就涉及到了空间信息。当我们了解到加冕仪式的举办地点位于柯尼斯堡,远离神圣罗马帝国的疆域范畴时,就能够认识到这个历史事件存在非常有趣的政治意味。


传统的历史研究往往忽略对空间的关注,福柯曾经批评西方学者对空间维度的忽视。这背后实际上有非常现实的技术原因,对大部分历史学者而言,要调用和分析空间数据存在显著的技术障碍,所以会有意无意地忽略空间信息之于历史研究的价值。然而,在数字化技术的武装下,GIS已经衍生出许多用户界面友好的使用平台,让历史学家使用、操控以及可视化空间信息变得越来越容易。历史学家再也没有理由无视历史研究中的空间维度了。


当然,对于纯人文知识背景的历史学者来说,要积极拥抱GIS方法,其实存在两个层面的困境。首先,我们可能担心GIS技术本身过于复杂,难以理解,或者需要花费大量时间精力去学习,代价太大。更令人气馁的是,技术更新迭代极为迅速,我们如果简单地追随,难免会感觉无所适从。


其次,虽然度过了启蒙这个关卡,大致了解了GIS的技术路径和工作原理,也能够独立在GIS平台上进行简单操作,我们可能还并不清楚怎么用它来解决历史研究中的具体问题。换句话说,我们不希望拼了老命,掌握了一门屠龙之技,而无法在日常的研究工作中转化为生产力。


前一种是技术屏障,后一种是观念屏障。跨越技术屏障要相对容易一些,我们可以通过演示实操的步骤,让大家依葫芦画瓢,逐步掌握操作层面的要点。现在许多能够实现GIS功能的软件或者平台,都愈发程式化和智能化,我们经过必要的培训后,完全可以独立完成各项既定任务。难点在于,我们需要克服观念屏障。GIS与其说是一种研究工具,不如说是一种研究思路。GIS平台极为方便,还能输出干净漂亮的地图文件,非常吸引人;但作为研究者,我们真正需要了解的是在何种研究语境下使用它们,如何调用空间统计协助我们挖掘隐含的信息,并用符合历史学话语体系的语言去描述和分析结果。简言之,在研究实践中,我们需要运用空间思维,寻找问题、发现问题和解决问题。在观念层面有了这样的学术自觉之后,GIS才真正融入到了历史研究之中。


在下面的介绍中,我们将主要回答两个问题:如何操作一款GIS的平台/软件,以及,如何在历史研究中贯彻GIS的分析方法。


然而,磨刀不误砍柴工。如果我们先掌握GIS系统的工作原理,对于后续的学习将会非常有帮助。所以,我们从何为GIS这道名词解释题开始。


GIS的原理


(图片来自网络)


GIS其实是一套复杂的信息系统。直接套用学术化的定义,对历史学家而言可能过于深奥。我们作为终端用户,其实完全可以把GIS想象成一个黑箱,或者把它简单理解为一个数据库,它能够帮我们完成对空间数据的存储、计算、分析以及展示等各项功能。如果我们处理的主要是历史上的空间数据,那么就是 HGIS (historical Geographical Information System) 。


我们在开篇提到历史学家不重视空间信息,这种表述并不准确。历史学者在研究和书写历史的时候,其实非常倚重地图。从哲学的维度看,康德曾经指出地理与历史的紧密关系,认为地理主导空间,历史主导时间,是人类认知的全部来源。法国年鉴学派的学术活动,实践了康德的理念,很早就在历史问题的分析中纳入地理元素。20世纪80年代,甚至已经有学者提出了"空间历史"(spatial history)的概念。实际上,地图本身是一种空间数据的存储和表达形态。地理元素也是极为重要的空间信息。然而,正如没有数字化的文本不能被数字人文学者量化分析一样,传统形态的地图以及地理要素,缺乏对空间数据的结构化,也不能直接套用到HGIS的系统之中。所以,包括年鉴学派在内的传统历史研究,也仅仅把空间要素作为类似文本的研究对象,把权力、疆域、政治等概念附加在空间数据之上,进行的仍然是偏重传统路径的学术研究。现代的GIS系统的优势在于,它提供了一整套的解决方案,让许多技术细节隐匿在软件后台,使用者得以专注于对空间要素的分析与研究。使用HGIS方法研究美国内战的学者安娜·诺里斯(Anne Knowles)曾在一篇短文中总结HGIS具有下述特征(Knowles, 2008, p.7):


  • 对地理元素的追问成为历史研究的重要组成部分;

  • 地理元素是历史论据的主要来源;

  • 证据集,或者为历史分析提供重要依据的证据,基于记录着时空信息的数据库;

  • 历史研究通过地图、文本、图表等多种媒介进行呈现,在展现历史变迁的过程中,地图发挥着举足轻重的作用。


历史学者要使用HGIS展开研究,需要对其工作原理有基本认识。虽然实现空间数据分析与展示的软件琳琅满目,但有一些基本的思路是通用的。我们之前告诉大家可以把GIS系统简化为数据库,在历史学的专业领域要合理使用空间数据库,需要研究者善于将传统的、文本形态的、描述性的地理信息,转换为GIS系统能够理解的数据形态。几乎所有的GIS平台/软件的工作流程都会涉及以下两种数据类型:


  • 属性数据(attribute data),对地理空间信息进行描述的数据。地理空间信息包含了非常宽泛的内容,可以是空间位置,比如城市的方位、交战地点等;也可以是空间形态,比如行政区域的面积、行进路线的状态等。各类历史文献中实际上包含着大量地理空间信息,它们可能是定性描述的文字,也可能是量化统计的表格。

  • 空间数据(spatial data),GIS系统的独特之处在于,它不仅能够用数据库管理模块存储各种属性数据,还可以用"空间数据"将这些属性在地图中呈现出来。空间数据有两种数据模型,来实现空间信息的记录和表达:矢量数据和栅格数据。这两种数据模型我们稍后再展开介绍。


属性数据和空间数据要相互配合,才能够完整地描述地理空间信息,并被用于后续的空间分析。换句话说,在GIS的系统中,需要把两种数据"关联"起来,我们可以用一个具体的例子来进行说明。


(来源:Gregory, 2007, p.4)


上图的例子就是将属性数据和空间数据结合起来的样本,显示了英格兰教区的分布、面积以及相应的人口统计信息。


当然,在大多数的GIS软件/平台中,用户在前端看到的是以图形呈现的"空间数据","属性数据"主要以表格的形式储存在后端;GIS系统允许调用后台的属性数据,以供用户进行对比与筛选。


从上述案例可以明显看出,在GIS系统中,属性数据回答了地理空间信息是什么的问题,空间数据解决了在哪里的问题。然而,所有的地理空间信息,还有一个时间的属性。这显然是历史学家最容易理解的数据,我们无须做过多解释。值得强调的是,HGIS系统能够用非常直观的方式展现时间维度,从而将历史演进的过程、空间信息的历史变迁动态地呈现出来。


在GIS系统中,如果地理空间属性通过坐标系统(比如经纬度)和几何图形来定义,那么这样的数据模型就是矢量数据(vector data);如果通过空间单元格来实现,就属于栅格数据(raster data)。GIS系统的一项重要优势在于,扫描形成的电子地图(实际上就是一种类型的"栅格数据"),也可以导入系统,并跟矢量地图串联起来使用。


从图形学的角度看,矢量数据并不复杂,只有三种基本形态:点(point)、线(line)、面(polygon)。比如我们研究18世纪德意志启蒙时代的俱乐部状况,每个俱乐部所在城市就是一个点,连接不同城市的道路就是线,城市所隶属的行政区域就是面。


每一种形态的空间数据与对应的属性数据配对存储在图层(layer)中。在矢量数据模型下,每个图层就是一个小型数据库,并可以通过GIS的工具对空间属性进行量化分析,比如计算道路的长度、辖区内俱乐部的密集程度等。特别需要强调的是,所有GIS系统中,每个图层只能记录单一类型的图形数据,也就是说,城市图层记录所有的点信息,无法包含道路或者行政区的信息。我们不能在描述德意志州政府所在城市的点图层中,同时表达德意志道路的数据,要体现公路的信息,必须单独形成一个道路图层。但正是通过这项功能,我们就看到了矢量数据模型的价值,虽然它存储的数据形态是分隔开来的,都由于不同图层都遵循同一套坐标系统,可以将不同的属性叠加在一起,由此进行空间信息的对比、分析或统计。


栅格数据则容易得多,我们可以把它简单理解为图像文件,使用像素阵列来表示图像。


由于不同的机构都开发有自己的GIS工作平台,所以对空间数据存储的文件格式也不尽相同。矢量数据和栅格数据的文件格式也不相同。比较常见的栅格数据文件格式包括JPEG2000、ADRG、GeoTIFF等,矢量数据则有GeoJSON、GML、KML、Shapefile等。栅格数据的文件格式,除了跟数据来源有关,也跟图片的压缩方式相关,但现在GIS平台愈发智能,通用的JPG图片格式文件也可以被系统读取。


矢量数据的文件格式如GML、KML等,其实都属于标记语言,用来表达地理信息要素。网络上有大量免费资源可以下载,但需要注意,文件格式要跟自己使用的GIS平台匹配,否则无法读取数据。


对于历史学家而言,并不需要担心被各种复杂的文件格式弄得晕头转向。我们在实际工作中,使用最多的文件格式应该是Shapefile,它具有跨平台的性质,所以比较方便空间数据的分享与传播。但要强调的是,shapefile要完整存储空间数据,需要多种文档组合表达,也就是说,shapefile不是单一文件,而是一组文件。例如,存储一个关于莱比锡的空间数据,至少需要后缀名分别为.shp、.shx、.dbf的三个文件才能被系统读取,其中,真正被用户手动导入GIS软件系统的文件是.shp。如果要表达更加复杂的空间属性,还有其他8种可选的文件格式,其中有.prj的文件,记录了该矢量图使用的坐标参考系。不论是简单表达,还是复杂表达,所有文件都必须放在同一个文件夹中,否则系统无法完整读取矢量数据。


作为研究导向的历史学家,要理解HGIS的原理,只需要掌握上述内容就足够用了。研究者是终端用户,而且关注的焦点是如何利用HGIS平台解决研究中遇到的问题,既不涉及HGIS系统的开发,也不关乎算法的性能优化,所以了解上述基本的游戏规则已经可以满足日常使用中的各种情况。


随着技术的发展,能够实现GIS展示与分析的平台越来越多,功能也越来越全,我们会面临选择困难。如此繁多的可选应用,其实可以分为三大类:一个是在线平台,一个是单机软件,还有一种比较小众,以插件的形式依附于某个功能软件。


在线平台将所有的功能模块都放在网络上,用户需要在平台上注册一个账号,使用过程中,只需要从本地上传数据,就能够进行空间数据的存储、转换、计算以及分析。在线平台最大的优势在于用户界面友好,使用者的学习成本很低,按照平台既定的工作流展开工作,就能够按部就班地拿到相应的结果。


当然,在线平台也有非常明显的短板:首先,许多在线平台都由国外公司开发,运算效率与网路环境是否畅通有直接的联系;其次,由于在线平台面向的是各类用户的需求,所以它提供的空间数据计算模块,通常是通用型的分析工具,很难满足许多个性化的研究需求;另外,在线平台往往用免费的噱头吸引用户流量,但免费的账号所能够获得的服务项极其有限,包括底图、存储空间、分析工具等都有非常多限制,除非升级为收费账号,否则很可能无法满足研究需求,但账号升级意味着极大的成本开支。


比较有代表性的在线平台包括Carto、GoogleMap等。


第二类工具是单机版软件,就是需要用户在本地硬盘安装程序。这种类型的GIS软件也有很多,目前比较流行的包括ArcGis、QGIS等。Arcgis功能强大,数据分析能力强,但它属于版权软件,而且由于功能齐全,所以学习成本也比较大。QGIS最大的优势是开源免费,而且跨操作平台。它既有足够的多的功能,又没有太复杂的学习成本。对于历史学家而言,我们秉承"最小计算"的原则,即我们把重心放置在空间分析的理念培育以及数据解读层面,而对"技艺"的要求将至最低,所以对工具本身只追求"拿来就用"的原则。最终,我们选择QGIS作为推荐产品。


大家可以自行前去官网(https://www.qgis.org/)下载相应操作系统的软件包。QGIS更新非常勤快,如果你没有升级强迫症的话,建议选择长期稳定版(Long Term Release),笔者写稿之时的LTR版本号为3.4.7。


第三类就是为某些大型软件开发的插件,其中最具代表性的就是Excel自带的Power Map插件。它能够实现定制化的空间数据的可视化。


空间信息的获取与整理


曾有数据分析工程师戏言,看似高大上的大数据分析工作,有70%的时间进行的是极其简单且枯燥的数据清洗工作。这虽然是戏言,但是反映出来的困境却是现实:在进行GIS的分析中,空间信息的采集和整理是最耗时、最昂贵的流程。


而HGIS的信息采集则有其更突出的独特性。我们假设要研究一位学术交流异常频繁的学者。他在自己的手机中安装了一个采集地理坐标的小程序,这样他每次去外地出差的行程将被记录下来。数据积累到一定程度之后,我们就可以利用这些数据来描绘这位学者的行迹。这些数据直接来自GPS,从GIS的视角来看,它们属于"第一手资料"。这是现代许多场景之下,空间信息采集的方式。然而,如果我们要去研究一位历史人物的行踪,通过GPS来获取空间数据显然无法成立。退而求其次,我们只能通过其他"二手"的文献,比如地图、游记等资料,来重建空间信息。这才是HGIS实践中时常面临的工作。我们也就会理解,为什么HGIS的数据采集是难中之难了。


我们已经知道,HGIS视域下的历史文献中蕴藏着大量空间信息。如果历史学者没有HGIS的理念,在历史文献的阅读过程中,就只会把资料当作普通的文献,而对其中的空间信息熟视无睹。(比如我们在开篇的一段文字)所以,构建一个历史地理信息数据库,是展开后续空间分析的前提。这个过程可以理解为空间信息的结构化过程:一方面是要把各种形态存在的空间信息转换成矢量或者栅格数据模型,一方面还要把涉及到的各种属性数据,与对应的空间数据关联起来。


历史文献中,有些空间信息非常明显,比如地图等,有些则不是很直接,比如历史文本中涉及到对地点、行进路线等描述,这些空间信息需要我们进行提取,这是历史文献通常的状态。


对于历史地图,我们用扫描仪就可以将它们直接转换为栅格数据,并被GIS软件读取。如果原始地图尺寸不超过A4大小,使用精度要求不高的话,我们使用普通的扫描仪就能够实现;但如果原始地图尺寸大,使用精度高,工业级水平的扫描仪就要派上用场。


为了让原始地图有更大的使用价值,我们还需要在栅格数据的基础上进行矢量转化。这个过程同样是耗时耗力的工作。有两种路径:一种是完全靠人力,以栅格数据为底图,在GIS平台(比如QGIS)上绘制矢量地图;一种是借助一些技术手段,自动完成从栅格到矢量的转化。后一种技术并不能完全交给机器,还需要人工进行校对和处理机器无法识别的状况,所以两种路径都离不开人力资本的支撑。我们会在后续课程中教大家实现第一种路径。


如果研究者手头主要是文本为主,用文字描述了许多空间信息,那么我们需要完成的工作是从文本中提取空间数据。这个过程的专业术语叫"地理编码"(Geocoding),用通俗的语言可以概括为"文献史料的空间化",比如一个最简单的任务场景是将文本中涉及到的地名抽取出来,转换为地理坐标。这个工作可以纯手工来完成,也可以借助技术手段来提升工作效率。我们将在后面结合QGIS的教程,详细展开说明。


如果你承受机械性、重复性工作的阈值极低,但是财大气粗的话,那么可以购买他人整理的空间信息;既不想自己辛苦,又没有足够财力的话,还可以从网络上下载免费的数据资源。实际上,不论是栅格数据还是矢量数据,已经有许多前辈进行了基础工作。网络之上,有不同国别,包含不同历史时期的空间数据资源应有尽有。不过,不论是花钱购买别人辛辛苦苦整理出来的数据还是下载免费资源,都只能买什么用什么。虽然花钱的空间数据从特性上看应该比免费资源丰富,但你可以花钱,别人也可以花钱,你拿到的数据既可能不是最新的,也可能跟你的研究并不直接相关。所以,如果你更看重用原创的数据做原创研究的话,那么自己老老实实从历史文献中整理空间信息才是王道。


我们给大家推荐一些免费的数据库资源(偏重世界史研究数据)。


  1. Old Maps Online:

    https://www.oldmapsonline.org/

  2. David Rumsey Historical Map Collection:

    https://www.davidrumsey.com/

  3. Harvard Geospatial Library

    http://hgl.harvard.edu:8080/

    opengeoportal/


如果你是土豪或者科研经费充足,也可以考虑购买数据。推荐的网址有:

https://data.nextgis.com/


值得强调的是,虽然从文献资料中整理空间信息是非常繁琐的工作,但在很大程度上,空间信息的提取不是在单纯地进行数据搬运的重复性工作,而是涉及到了数据的再加工和知识的生产,即属于"数据的基础设施"建设,也具有极高的学术价值。


附加技能

利用Edinburgh Geoparser提取英语文本中的地名


从历史学家的实战经验看,从文本中提取地名是非常有实用价值的基础工作。但我们在这里介绍的Edinburgh Geoparser只作为选学的内容,因为这个软件虽然有用,但它目前只能在MacOS或Linux平台上使用,而且需要大量使用命令行,不太容易上手,对应的用户群十分有限。从笔者的实际使用情况看,该软件在Linux下使用更加顺畅,MacOS系统下存在一些问题,这很可能由于该软件开发比较早,而MacOS系统已经从Sierra升级到Mojave,出现了不兼容的情况。为此,在MacOS系统下,需要给软件打一个补丁。我们后面介绍。


Edinburgh Geoparser由爱丁堡大学在2015年发布,遵循GPL许可协议,其主页为https://www.ltg.ed.ac.uk/software/

geoparser/。主页提供了用户手册以及教程,本文内容基于上述文献编译而成。


由于本章是选学内容,笔者默认读者对MacOS或者Linux的命令行操作有一定了解,不会花时间解释基本的操作步骤。对此不太熟悉的读者,可以在网上寻找相关教程恶补一下。


Edinburgh Geoparser的安装非常容易。在其主页下载软件包,解压到本地硬盘后就可以使用了。如果你使用的MacOS版本较高,需要提前给软件打一个补丁。在软件安装所在的目录"scripts"下找到setup文件,用任意一个文本编辑器打开,在代码中找到


Darwin?1[012345]*)


我们需要用一个新的代码取代旧代码:


Darwin?1[0-9]*)


保存setup文件,补丁就打好了。


如果你不放心,我们可以用一个最简单的命令来验证一下软件是否正确安装。在终端使用命令行时,要确保首先进入软件所在的一级目录。


cat ./in/172172.txt | ./scripts/run -t plain -g geonames -o ./out result


这个命令看上去很复杂, 其实逻辑非常简单。"|"将命令分为两个部分,第一个将待处理的文本读入系统,第二部分对文本进行地名解析,并且输出到指定文件夹。在终端里运行后,如果在"out"文件夹里出现若干result开头的新文件,那么恭喜你,文件安装正确而且能够顺利运行。


(图1:查看结果)


不过,这个命令行还无法应对实际的任务场景。


比如,在命令前一部分的文本输入环节,使用了软件"in"文件夹中的样本文件,如果我想对自己的文件进行解析,要怎么操作呢?有两种方式,一种是把待处理的文本拷贝到"in"文件夹,把上述命令中"172172.txt"换成新的文件名就可以了。


cat ./in/my_file.txt


另一种方式,把待处理文本的完整路径敲入命令行。假设my_file.txt在硬盘中的位置为/home/tao/my_file.txt,那么,完整的命令就是:


cat /home/tao/my_file.txt


基于同样的思路,我们也可以对结果输出进行调整,给出完整路径将结果输出到指定位置,而不是都集中到"out"文件夹。


(图2:解析本地文件)


第二种方式带来的后果是,命令行会非常冗长,影响阅读。


Edinburgh Geoparser可以实现的各种功能,都集中在文件夹"scripts"中,run是最基本的一项功能。大家有兴趣可以去看看还有哪些重要的功能。


命令行"|"后面的部分,还有一些参数需要说明,它们直接影响结果的呈现。


参数设定:


-t 对待处理文本的格式进行设置。Edinburgh Geoparser可以处理三种类型的文本格式,


纯文本(plaintext),参数:plain

xml格式,参数:ltgxml

谷歌图书的html格式,参数:gb


该软件的开发者推荐使用纯文本。


-g Edinburgh Geoparser的工作原理是在后台调用已有的地名数据库(gazetteer),实现从文本中提取地名。因此,为了提高解析的准确度,我们可以根据文本提前指定更加符合的"地名词典"。


Edinburgh Geoparser支持好几种gazetteer,比如:


GeoNames,通用世界地名,参数为geonames

OS,基于Ordnance Survey的英国地名词典,参数为os

DEEP,英国历史地名索引,参数为deep

Pleiades+,古典希腊罗马地名索引,参数为plplus


从这个列表可以看出,Edinburgh Geoparser对英国的地名应该有更友好的支持。做英国研究的朋友们有福了。特别是对研究英国历史的学者而言,如果使用DEEP的话,还有两个特别参数,让地名解析更加有指向性:-c和-r


-c 如果对文本比较熟悉,知道文本讨论可能涉及到郡的名称,就可以标明;系统允许指定多个可能的郡名;


cat <infile> | ./run -t plain -g deep -c Oxfordshire -c Wiltshire


-r 可以指定起始年份与结束年份,这对历史地名的解析非常有帮助;


cat <infile> | ./run -t plain -g deep -c Essex -r 1000 1400


另外的一个应用场景是,我们能否批量解析文本呢?这个稍微有点技术含量,但Edinburgh Geoparser的开发者很贴心,已经为我们准备好了解决方案。


首先,我们要去下载一小段代码,地址为:


http://groups.inf.ed.ac.uk/geoparser/scripts/run-multiple-files.sh


然后,把这段代码拷贝到“scripts”的目录下。为了让命令行简化,我们可以把这个文件改一个短小、容易记住的新名字,比如multi.sh


在终端运行下面这个命令:chmod u+x multi.sh


现在准备工作就做好了。命令行也非常简单:


(图3:命令行)


我们只需要调整两个参数:


-i 指定存放待处理的文本位置;

-o 指定解析后文件的存放位置。


现在,我们终于有机会来看看解析地名的结果了。我们刚才提到了Edinburgh Geoparser会有好几种文件输出。其中比较重要的是以下三个文件:


result.out.xml:是对文本进行自然语言处理的结果,包括词性标注等内容,用XML的格式进行表达。

result.gaz.xml:对提取出来的地名进行标注和排行。由于各种地名词典对同一个“地名”有好几种地理坐标信息,所以Edinburgh Geoparser会把前20种结果都列举出来,按照概率进行排列。这是出于严谨的考虑,但有时我们只需要输出概率最高的坐标信息就可以了,我们只需要在上面的命令行中加入“-top”这个参数。也就是说,命令行变成:


cat ./in/my_file.txt | ./scripts/run -t plain -g geonames -top -o ./out result


result.display.html:对地名进行可视化的文件。如果命令行中加入“-top”参数后,系统生成一个result.display-top.html的文件。


(图4:适合机读的结果)


对不熟悉XML格式的人而言,前两个文件无异于天书。因为它预设的读者不是人脑而是电脑,格式化的结构方便电脑快速读取数据,所以并没有考虑人类的阅读习惯。好在还有result.display-top.html这个文件,它提供了一个最基本的可视化功能。我们可以在各种浏览器中将它打开,然后欣赏呈现的效果:


MacOS系统:

open result.display-top.html


Linux系统:

xdg-open result.display-top.html


(图5:结果的可视化呈现)


页面左侧是原始文本,系统标记出来的地名用高光现实,右侧是相应地名的经纬度。上面的地图把涉及到的地名都现实出来,一目了然。


除了进行可视化之外,我们还可以对XML文件的格式进行转换,方便人类阅读。这样做的好处是,转换之后的文件可以被其他GIS软件使用,比如QGIS。方法如下:


MacOS系统:


./bin/sys-i386-snow-leopard/lxprintf -e "ent[@type='location']" "%s\t%s\t%s\t%s\t%s\n" "normalize-space(parts/part)" "@gazref" "@in-country" "@lat" "@long" < ./out/result.out.xml> ./out/result.out.tsv


Linux系统:


./bin/sys-i386-64/lxprintf -e "ent[@type='location']" "%s\t%s\t%s\t%s\t%s\n" "normalize-space(parts/part)" "@gazref" "@in-country" "@lat" "@long" < ./out/result.out.xml> ./out/result.out.tsv


很快,系统就生成了一个新的文件,我们用Excel打开,就对文本中地名的状况极其直观。


(图6:地名提取结果)


拿到这个文件后,我们还可以把数据导入QGIS等软件平台,进行更多元化的空间分析。


最后,我们推荐一个可以实现在线地理编码的网站:geocodio,其网址为https://www.geocod.io。这个网站的优势在于,可以免费实现不超过2500个地址(每天的上限,第二天归零)的在线编码任务。如果购买会员,则没有这个限制。这个平台对北美地区的地址比较擅长,从事美国研究的朋友可以考虑。


总体而言,Edinburgh Geoparser功能比较全面,如果熟悉终端命令的话,学习成本并不算高;geocodio近乎傻瓜式的工具,按照要求上传数据,就能够获得结果。然而,它们的缺点也非常明显。Geocodio受到网络条件的限制,速度和效率都有瓶颈。在Edinburgh Geoparser解析的过程中,并不理解文本,所以对歧义词的辨别显得无能。我们在案例中使用维基百科英文版中撒切尔夫人传记的一段文字,地名解析的结果至少出现了两处错误:Thatcher无疑是人名,但非常巧合的是,在美国亚利桑那州也有一个叫Thatcher的城镇,软件在解析的过程中并没能区分出来;此外,Nazi乃是“纳粹”之意,稍微懂点历史的人都知道纳粹德国的所指,但这个软件把它当成了地名。所以,对于Edinburgh Geoparser运算的结果,我们不能不信,也不能全信,细心的人工校对依然必须。


参考文献

Beatrice Alex, "Geoparsing English-Language Text with the Edinburgh Geoparser," The Programming Historian 6 (2017), https://programminghistorian.org/en/lessons/geoparsing-text-with-edinburgh

Ian Gregory, Historical GIS: technologies, methodologies and scholarship, Cambridge: Cambridge University Press, 2007.


Anne Knowles, eds., Placing History: how maps, spatial data, and GIS are changing historical scholarship, 2008.



END

主编 / 徐力恒

责编 / 李瑞芳

美编 / 李瑞芳




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存